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摘要 : 


【 目的 ] 构建 一 种 更 加 科学 、 准 确 的 评论 文本 情感 倾向 性 分 析 方法 ,解决 网 络 新 闻 难 于 计算 的 问题 。[ 方 


法 ] 利用 概念 层次 网 络 (HNC) 理 论 的 符号 对 偶 性 计算 情感 值 , 根据 建立 的 规则 为 新 闻 确 定 符号 ,利用 符号 重用 降 
低 工 作 量 , 实现 对 新 词 的 处 理 。[ 结果 】 通 过 对 已 有 成 果 的 分 析 和 改进 ,最 终 得 到 一 套 较 为 完善 的 情感 倾向 性 分 
析 方 法 , 并 使 用 真实 数据 进行 实验 , 验证 了 该 方法 的 可 行 性 ,同时 也 发 现 了 待 改进 之 处 。[ 局 限 】 目前 仅 能 对 网 
络 短文 本 进行 分 析 , 且 新 闻 的 加 入 需 采 用 人 工 标注 的 方式 。[ 结论 】 本 文 方法 可 行 有 效 , 为 文本 情感 分 析 提 供 了 


新 思路 。 
关键 词 : 评论 文本 
分 类 号 : TP391 


情感 分 析 ”概念 层次 网 络 (HNC) 


1 引 言 


随 着 互联 网 的 发 展 和 Web2.0 的 提出 ,网 络 数据 不 
再 仅仅 包含 结构 化 、 标 准 化 的 内 容 。 电 子 商务 网 站 的 
兴起 和 微 博 、 知 乎 等 社区 的 发 展 使 得 用 户 生 成 内 容 
(User Generated Content, UGC) 数 量 突 增 。 文 本 分 析 正 
是 针对 这 一 问题 诞生 的 , 本 文 主要 关注 文本 的 情感 分 
析 。 在 对 电子 商务 平台 的 用 户 评论 分 析 和 微 博 等 社区 
的 舆情 控制 上 , 文本 情感 分 析 的 应 用 十 分 广泛 。 然 而 
文本 情感 分 析 也 遇 到 了 诸多 难点 , 通过 词 形 理解 概念 
的 方法 需要 强大 的 字 词 库 支 持 ， 而 字 词 本 身 以 及 字 词 
的 含义 又 会 随 着 人 们 的 使 用 发 生变 化 。 种 种 问题 导致 
文本 情感 分 析 不 可 能 形成 一 种 通用 的 、 规 范 的 方法 。 
本 文 主要 从 中 文 文本 入 手 , 试图 摆脱 词 形 的 困扰 , 深 
入 到 概念 层 , 解析 中 文 文本 中 包含 的 讲 贬 情感 ， 实现 
情感 值 量 化 的 计算 。 

在 中 文 文本 情感 分 析 中 ， 薛 丽 敏 等 口 采 用 五 元 模 
型 进行 分 析 , 即 从 情感 倾向 性 观点 的 持 有 者 、 倾 向 性 
的 来 源 、 倾 向 性 的 指向 、 倾 向 性 的 立场 和 倾向 性 的 种 
类 刻画 中 文 文本 情感 倾向 性 ; 朱 即 岚 等 握 使 用 基于 


HowNet 的 词汇 语义 倾向 计算 ， 提 出 基于 语义 相似 度 
的 方法 和 基于 语义 相关 场 的 方法 ; 聂 卉 等 所 基于 
HowNet， 提 出 面向 评论 效用 评估 的 文本 情感 特征 提 
取 方 法 ; 兰 秋 军 等 外 使 用 依存 句法 分 析 的 方法 计算 金 
融 论 坛 文本 情感 倾向 性 ; 何 跃 等 巴结 合 话题 相关 性 ， 
利用 基于 机 器 学 习 改 进 的 情感 分 类 方法 对 抽取 博文 的 
情感 极 性 进行 分 析 ; 钟 义 信 四 提出 自然 语言 理解 的 全 
信息 方法 论 ; 攀 康 新 中 提出 计算 词语 情感 值 的 方法 ,以 
上 方法 的 不 足 之 处 是 对 于 文本 情感 的 理解 仍 是 依赖 词 
形 进行 处 理 的 , 这 与 人 理解 文本 的 过 程 不 一 致 ， 因 此 
会 造成 较 大 的 工作 量 和 误差 , 而 且 这 种 方法 对 于 知识 
库 的 完整 性 要 求 较 高 ,对 于 网 络 新 词 、 不 规范 的 词语 
更 是 无 法 处 理 。 刘 玮 楠 中 则 利用 HNC 理论 , 从 HNC 
知识 库 符号 入手 实现 情感 值 的 计算 ， 试 图 通过 文本 向 
符号 的 转换 来 解决 对 知识 库 依 赖 性 过 高 的 问题 , 但 仍 
然 是 简单 地 从 词 形 转换 到 符号 上 , 计算 过 程 没 有 本 质 
改变 。 

本 文 以 HNC 理论 外 为 基础 , 利用 HNC 理论 中 概 
念 层 次 00 和 对 偶 性 5 原理 ， 对 文本 分 析 不 是 从 形式 上 
和信 手 ， 而 是 注重 其 概念 的 表达 , 这 与 人 在 理解 文本 内 
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容 时 的 过 程 是 一 致 的 。 同 时 从 已 有 的 HNC 知识 库 和 
符号 的 生成 规律 入 手 计算 文本 情感 值 ,提出 一 种 解决 
新 词 情感 值 计算 问题 的 方法 。 


2 ”情感 值 计算 


2.1 情感 词 在 HNC 中 的 体现 
(1) 对 偶 性 
对 侦 性 中 是 指 “ 双 重 对 立 并 且 存 在 对 立 统一 体 ” 这 

一 特征 ,情感 词 的 特点 是 具有 对 偶 的 概念 , 情感 极 性 

对 应 赛 贬 倾向 。 通过 观察 研究 发 现 , 在 HNC 概念 基 元 

符号 中 ,有 着 具有 这 一 特征 的 对 偶 概 念 , 可 以 用 于 情 

感 的 襄 贬 倾向 性 分 析 。HNC 的 每 个 概念 语义 网 络 在 

HNC 知识 库 中 ,节点 在 每 个 概念 语义 网 络 分 为 高 层 、 

中 层 、 底层 ,其 中 中 层 节 点 反映 了 概念 的 基本 特性 

而 研究 发 现 , 在 涉及 情感 概念 表达 的 节点 中 ,同一 人 

节点 下 的 中 层 节点 通常 是 一 组 对 偶 的 概念 集合 , 且 这 

组 概念 集合 在 情感 上 存在 差异 ， 即 分 别 表示 情感 的 蛮 

义 和 贬 义 , 也 说 明了 它们 之 间 存 在 对 偶 关系 。 

(2) 基础 情感 值 确定 
在 HNC 知识 库 中 , 首先 挑选 与 情感 表达 有 关 的 
节点 和 与 程度 副词 有 关 的 节点 。 经 过 分 析 发 现 , HNC 

符号 以 两 种 方式 定义 对 侦 概 念 。 当 节点 符号 后 级 为 

ekm/ekn 或 ckm 时 (Kk、m、n 均 为 数字 )， 表 达 一 组 对 偶 

概念 , 根据 的 取 值 可 以 判断 对 偶 概念 的 个 数 ' 了 4。 且 

每 种 对 偶 概 念 的 对 偶 个 数 为 2 或 3, 对 于 包含 情感 的 

节点 来 说 ,看 对 偶 概 念 个 数 为 2， 则 第 一 个 节点 为 积 

极 意义 , 第 二 个 节点 为 消极 意义 ; 若 对 偶 概 念 个 数 为 

3， 则 第 一 个 节点 为 积极 意义 , 第 二 个 节点 为 消极 意 

义 , 第 三 个 节点 通常 为 处 于 积极 与 消极 之 间 的 意义 ， 

一 般 同时 包含 或 者 同时 不 包含 前 面 两 个 概念 表达 的 含 

义 , 但 其 自身 表示 微弱 的 贬义 情感 。 这 样 的 关系 有 利 

于 进行 情感 基础 值 的 确定 。 
采用 基于 HNC 对 偶 概 念 来 判断 情感 极 性 的 方法 ， 

一 个 概念 节点 从 开头 到 倒数 第 4 位 均 用 于 表示 该 概念 

节点 从 根 节 点 到 叶子 节点 的 路 径 ， 对偶 性 体现 在 结 

的 三 个 字符 上 , 情感 极 性 则 通过 最 后 一 个 数字 表示 ， 
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例如 : 
71329 爱 恨 7202 面 对 困 难 的 意志 表现 
71329e21 爱 7202e75 坚定 
71329e22 恨 7202e76 动摇 


7202e77 屋 服 


葬 绪 数据 分 析 与 知识 发 现 
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根据 以 上 例子 可 以 看 出 ， 当 值 为 2 时 , 例子 中 共 
有 两 个 概念 节点 ,其 中 以 值 为 1 时 表达 讲义 情感 , m 值 
为 2 时 表达 贬义 情感 ; 当 值 为 7 时 , 例子 中 共有 三 个 
概念 节点 ,其 中 m 值 为 5 时 表达 蛮 义 情感 , m 值 为 6 时 
表达 贬义 情感 , m 值 为 7 时 也 表达 偏 贬义 情感 .事实 上 ， 
在 HNC 知识 库 中 的 规律 也 是 这 样 ， 即 第 一 个 概念 为 
人 讲义, 第 二 个 概念 为 贬义 , 第 三 个 概念 通常 表 贬义 。 

基于 HNC 符号 中 这 种 对 偶 概 念 的 规律 , 在 处 理 
文本 时 ， 只 需 分 析 相 应 情感 词 的 概念 节点 特征 ,寻找 
对 应 的 m 值 , 就 可 以 判断 该 情感 词 的 讲 贬 倾向 , 得 到 
情感 词 的 初始 情感 值 。 

(3) 程度 副词 权重 

在 具体 计算 情感 倾向 时 ,将 褒 义 倾向 的 情感 值 和 
贬义 倾向 的 情感 值 定义 为 1 和 -1, 便 得 到 初始 情感 值 。 
这 种 方法 将 抽象 的 概念 进行 量化 , 实现 了 文本 计算 的 
功能 。 此 外 , 情感 的 表达 不 仅仅 由 情感 词 表 现 , 程度 副 
词 在 表达 情感 倾向 时 起 着 很 重要 的 作用 , 往往 具有 加 
强 或 者 减弱 甚至 反 义 的 作用 ,例如 “不 好 看 ”“ 比 较 好 
看 ”和 “很 好 看 ”在 表达 情感 倾向 时 存在 很 大 的 差异 。 由 
于 HNC 知识 库 中 程度 副词 节点 符号 的 排列 关系 与 其 
含义 联系 不 大 ， 且 表示 程度 含义 的 副词 较 少 , 本 文采 
用 人 工 定 义 的 方式 实现 情感 值 权 值 的 计算 。 

(4) 最 终 情感 值 计算 

从 计算 的 角度 讲 ， 影 响 情感 值 的 因素 主要 有 两 方 
面 , 第 一 是 由 情感 词 决定 的 情感 极 性 也 称 为 基础 情感 
值 , 第 二 是 程度 副词 带 来 的 极 性 程度 增 大 或 缩小 。 本 
文 的 计算 过 程 大 致 如 下 : 对 文本 进行 预 处 理 , 得 到 主 
题词 和 情感 词 、 程 度 副词 。 对 于 某 个 主题 词 来 说 ， 有 
m 个 描述 它 的 情感 词 , 这 m 个 情感 词 中 的 每 一 个 情感 
词 又 有 个 程度 副词 来 描述 。 对 于 某 一 个 情感 词 来 说 
将 其 个 程度 副词 带 来 的 程度 变化 与 基础 情感 值 做 积 ， 
得 到 这 个 情感 词 带 来 的 情感 值 ， 再 将 m 个 情感 词 的 计 
算 结果 做 和 即 可 得 到 最 终 的 情感 值 。 
2.2 ”基础 情感 值 确定 

对 于 采集 得 到 的 评论 文本 , 采用 基于 模式 的 
Bootstrapping 方法 实现 主题 词 、 情 感 词 、 程 度 副 词 
的 抽取 。 由 于 基于 模式 的 方法 对 词义 无 任何 判断 力 ， 
因此 需要 对 其 进行 进一步 的 确认 科 选 ,同时 对 于 单字 
和 词 的 处 理 也 有 一 定 的 差异 性 。 处 理 步骤 及 基础 情感 
值 确定 步骤 如 图 1 所 示 。 
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图 1 基础 情感 值 的 确定 


基于 模式 的 匹配 得 到 的 是 形式 上 的 情感 词 ， 还 需 
进一步 确定 含义 以 提高 计算 精度 。 对 于 得 到 的 多 字 词 
语 ， 对 于 每 一 个 词 进行 如 下 操作 : 在 HNC“ 字 词 知 识 
库 ” 中 查找 并 筛选 概念 类 别 , 判断 其 是 否 为 情感 词 。 判 
断 概念 类 别 ,对 于 某 义 项 概念 类 别 为 u( 属 性 ) 的 词 认 为 
可 能 是 情感 词 。 为 进一步 确认 , 还 需 判 断 其 是 否 具 有 
对 偶 概 念 ， 原则 为 选取 概念 类 别 为 u 的 那个 义 项 , 查 
找 其 关联 概念 节点 或 HNC 符号 , 包含 ekm、 ckm(k、m 
分 别 表述 数字 ) 的 词 即 确定 为 情感 词 。 对 于 概念 类 别 不 
是 u 的 词语 , 仍 有 可 能 是 情感 词 ， 处 理 的 方式 是 找到 
其 关联 概念 节点 后 判断 是 否 具 有 对 偶 概 念 , 没有 对 侦 
概念 的 词 直接 舍 去 ， 有 对 偶 概 念 的 词 则 用 概念 节点 反 
向 查找 , 在 词语 库 中 找 出 同 概念 节点 下 概念 类 别 为 u 
的 词语 。 如 果 没 有 , 则 侈 去 该 词 ; 如 果 存 在 且 数 目 大 于 
设 定 的 阔 值 则 保留 该 词 。 在 关联 概念 节点 的 寻找 上 ， 
有 时 会 因为 某 个 词语 表达 含义 的 层次 较 低 无 法 在 节点 
库 中 成 功 得 到 ， 处 理 的 方法 是 将 该 关联 概念 节点 从 尾 
部 依次 减 去 一 个 字符 进行 查找 ， 取 能 检索 到 的 最 长 子 
字符 串 为 其 关联 概念 节点 。 

通过 上 述 方法 对 得 到 的 情感 词 集合 再 进行 处 理 以 
得 到 其 基础 情感 值 。 取 表达 了 情感 倾向 的 字 词 关联 概 
念 节 点 , 使 用 关联 概念 节点 在 知识 库 中 搜索 其 父 节 点 ， 
通过 上 述 HNC 知识 库 中 对 偶 概 念 的 排列 规律 赋予 初 
始 情 感 值 。 对 于 本 身 不 带 有 任何 程度 的 情感 词 , 赋予 
误 义 的 字 词 情感 值 为 1; 贬义 的 为 -1， 轻 度 贬义 的 为 
-0.5。 例如 “漂亮 ”一 词 , 在 HNC 知识 库 中 有 两 个 义 项 ， 
且 两 个 义 项 的 概念 类 别 都 包含 u 进一步 解析 关联 概 
念 节点 ,三 个 节点 都 为 对 侦 概 念 ， 且 三 个 对 偶 概 念 都 
为 本 组 对 侦 概 念 节点 的 第 一 项 ， 因 此 确定 “漂亮 "表示 
的 情感 基础 值 为 1; 再 如 “满意 ”一 词 ， 从 主观 上 讲 , 该 
词 代 表 了 评论 者 蕴含 在 其 中 的 讲义 情感 倾向 , 但 在 知 
识 库 中 “满意 ”的 概念 类 别 为 v, 但 其 HNC 符号 表明 该 
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情感 词 集合 ， 对偶 概念 识别 部 分 为 “e71”， 是 对 偶 概 念 
中 的 第 一 个 ， 故 赋予 情感 基础 值 为 1 。 

对 于 单字 ,知识 库 中 没有 给 出 关联 概念 节点 , 但 
可 以 通过 从 HNC 符号 中 略 去 概念 类 别 的 方式 获得 ， 
然后 对 单字 进行 类 似 上 述 方式 的 处 理 。 例 如 “好 ”这 个 
字 , 很 明显 包含 了 评论 者 主观 上 讲义 的 情感 。 在 HNC 
知识 库 中 ,“ 好 ”的 HNC 符 号 为 “ju51e511”， 概念 类 别 为 
u, 处 理 后 的 关联 概念 节点 为 5$le$11”， 在 节点 库 中 找 
到 的 关联 概念 节点 为 451”， 而 根据 “e51” 可 判断 其 为 
对 偶 概 念 中 的 第 一 个 , 则 赋予 情感 基础 值 1。 

2.3 ”程度 副词 带 来 的 情感 值 变动 

程度 副词 对 情感 值 有 很 大 的 影响 ， 有 必要 通过 
权重 定义 反映 程度 副词 对 其 所 修饰 的 情感 词 产 生 的 
影响 。 

本 文 的 思路 是 摆脱 词 形 约束 ,深入 到 概念 层 去 理 
解 词义 。 而 从 概念 的 角度 讲 , 程度 的 概念 是 比较 集中 、 
易于 分 类 的 。 在 HNC 知识 库 中 , 概念 节点 “5j60” 表 示 
“ 度 的 基本 内 涵 ” 即 与 度 的 表达 有 关 的 词语 全 部 与 该 
概念 节点 相关 联 。 因 此 无 论 是 什么 词 ， 只 要 包含 程度 
的 变化 ,都 会 与 该 节点 下 的 叶子 节点 关联 ,根据 使 用 
习惯 ， 人 工 赋予 权 值 : 概念 节点 分 为 “ 极 、 最 ”" “很 ” 
“稍微 "、“ 适 度 ”"“ 不 够 “过 分 " “和 否定” 各 个 节点 
对 应 的 权 值 分 别 为 1.5、1.3、1.1、1、0.8、-0.5、-1。 
该 方法 利用 HNC 知识 库 的 概念 节点 这 一 概念 , 减少 
了 数据 元 余 , 简化 了 计算 流程 ,使 分 层 更 加 科学 ,也 
使 计算 更 加 清晰 易 懂 。 

在 实际 计算 时 , 对 已 经 确定 基础 情感 值 的 文本 进 
行程 度 副 词 提取 , 根据 其 在 HNC 知识 库 中 关联 概念 
节点 的 符号 确定 其 给 基础 值 带 来 的 情感 值 的 变动 。 本 
文 用 到 的 程度 副词 的 概念 节点 及 其 权 值 如 表 1 所 示 。 

表 1 程度 副词 及 权 值 


概念 节点 HNC 符号 权 值 

极 、 最 j60d01、j60c44 1.5 
很 j60c43 1.3 
稍微 j60c41 1.1 
适度 j60c42、j60e41 1 
不 够 j60e42 0.8 
过 分 j60e43 -0.5 
否定 ! | 


词 具 有 对 偶 概 念 ， 且 在 同 关 联 概 念 节 点 下 存在 概念 类 
别 为 u 的 词语 , 数目 通过 阔 值 检验 , 因此 也 将 其 纳入 


在 2.2 节 得 到 的 基础 情感 值 m(w) 上 , 找到 该 情感 
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词 附近 的 程度 副词 集合 , 在 HNC 知识 库 中 定位 程度 
副词 的 概念 节点 , 利用 公式 (1) 计 算 加 权 后 的 情感 值 ， 
从 而 将 经 过 加 权 处 理 后 的 情感 值 作 为 该 情感 词 的 最 终 
情感 值 。 


M(w)=([ [oi) xmw) (1) 


0;E0 


其 中 , MOw) 表 示 该 情感 词 加 权 后 的 倾向 度 , o 表示 
修饰 该 情感 词 的 程度 副词 集合 ,oi 表示 程度 副词 带 来 
的 变动 值 , m(w) 表 示 该 情感 词 的 基础 情感 值 。 

2.4 网 络 新 词 处 理 

在 实际 处 理 中 ,并 不 是 所 有 词 都 能 在 HNC 知识 
库 中 顺利 匹配 ， 有 一 些 网 络 习 惯 语 、 网 络 新 生词 并 没 
有 及 时 被 包含 在 知识 库 中 。 对 于 这 种 情况 , 提出 一 种 
基于 HNC 理论 的 处 理 方法 。 

处 理 的 过 程 是 按照 HNC 理论 的 规律 对 新 词 进行 
符号 确定 ， 对 于 每 个 新 词 , 具体 的 操作 如 下 : 人 工 进 
行 该 词 的 含义 辨识 ， 寻找 一 个 与 其 含义 相关 的 已 被 知 
识 库 收录 的 词 , 取 该 词 的 HNC 符号 。 如 果 该 节点 的 含 
义 与 新 词 完全 一 致 ,， 则 新 词 与 该 词 符号 相同 ; 如 果 不 
满足 ， 则 寻找 含义 相近 的 词 的 上 层 概念 节点 , 判断 新 
词 是 否 表达 该 概念 含义 。 如 果 可 以 ， 则 在 该 节点 的 下 
层 节 点 中 寻找 是 否 有 满足 条 件 的 节点 ， 如 果 有 ,赋予 
该 新 词 已 有 的 节点 符号 ; 如 果 没 有 ,为 该 新 词 按 顺序 
生成 一 个 新 的 节点 即 可 ,这 样 就 得 到 了 新 词 的 节点 符 
号 。 另 外 还 需 通过 词性 来 确定 该 词 的 概念 类 别 , 再 将 
概念 类 别 符号 与 节点 符号 组 合 即 可 得 到 该 词 的 HNC 
符号 ， 从 而 确定 该 词 的 情感 值 。 

用 实例 说 明 上 述 过 程 : 网 络 新 词 “给 力 ” 表 示 说 话 
者 对 评论 客体 很 满意 , 或 者 被 评论 的 客体 满足 了 说 话 
者 的 需求 ,， 晶 是 形容 词 词 形 , 在 HNC 知识 库 中 , “满意 ” 
的 关联 概念 节点 是 “7123”,“ 帮 助 * 的 关联 概念 节点 是 
“43e61”。 节 点 “7123” 表 示 的 含义 是 “愿望 的 实现 ”, 很 
明显 ,“ 给 力 ” 表 达 的 即 是 对 事物 所 期 望 的 结果 ， 因 此 
将 “7123” 赋 给 “给 力 ” 这 个 词 ; 同 理 对 于 “满意 ”的 关联 
概念 节点 “43e61”， 表 示 “ 文 持 ” 的 含义 , 也 被 收入 至 
“给 力 ” 的 符号 中 。 从 概念 类 别 上 看 ,“ 给 力 ” 属 于 表达 属 
生 的 词 ， 即 为 “0”。 

综 上 , 按照 该 方法 生成 的 HNC 符号 为 (07123/ 
u43e61)， 即 可 按照 已 建立 的 方法 计算 情感 值 。 

新 词 的 确定 也 是 本 文 尚未 解决 的 问题 ,留待 以 


a 
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后 进一步 完善 。 本文 实 验 中 对 新 词 进行 的 处 理 还 是 依 
赖 于 人 工 赋予 同义词 的 方法 , 效率 较 低 。 理想 的 方法 
是 利用 已 有 文本 进行 自动 的 同义词 识别 和 情感 值 的 
确定 。 
2.5 最终 情感 值 的 计算 
在 每 一 条 评论 中 都 可 能 有 多 个 情感 词 ， 而 每 一 个 
情感 词 也 可 能 被 零 至 多 个 不 同 的 程度 词 修 饰 ， 所 以 需 
要 进行 统一 ,在 得 到 基础 情感 词 和 程度 副词 的 权 值 变动 
后 , 某 条 评论 的 最 终 情感 值 计算 方法 如 公式 (2) 所 示 。 
1 
SOJ) = 页 | O) 
其 中 ，S(w) 表 示 这 条 评论 中 的 情感 词 集合 ， |W 
表示 情感 词 的 个 数 ，M(w) 表 示 该 情感 词 加 权 后 的 
情感 值 。 


3 实验 结果 


笔者 于 2017 年 3 月 3 日 通过 网 页 https://item.jd. 
com/3650540.html 获取 京东 自 营 商 品 “Apple iPad Air 2 
平板 电脑 9.7 英 寸 (32G WLAN 版 /A8X 芯片 /Retina 显 
示 屏 /Touch ID 技术 MNV72CH) 金 色 ”" 的 评论 数据 ,经 
过 去 重 、 去 广告 之 后 , 得 到 共 3 609 条 评论 。 但 受制 于 
目前 新 词 处 理 的 低 效 性 , 使 用 前 100 条 左右 评论 产生 
的 时 间 处 于 2016 年 12 月 至 2017 年 2 月 数据 对 本 方法 
进行 实验 , 这 100 条 左右 评论 已 经 足以 对 该 商品 目前 
的 反馈 进行 评估 。 对 数据 进行 分 词 、 词 性 标注 、 主 题 
词 抽 取 、 情 感 词 及 程度 副词 抽取 以 及 词 频 统计 等 预 处 
理 , 得 到 的 结果 如 图 2 所 示 。 


主题 词 | 情感 词 | 程度 副词 | _ 频次 | 主题 词 | 情感 词 | 程度 副词 | 频次 
划算 = 4 神速 = 1 
耐用 | 所 及 时 上 一 一 2 
流 轧 5 很 1 
很 3 | 方便 手 1 
薄 = I 迅速 一 
大 | 有 此 | 2 | 物 帝 [ 塌 | HR| 1 
芋 3 厉害 很 1 
太 1 = 8 
非常 4 好 很 5 
好 相当 1 非常 1 
还 
商品 很 22 精细 - i 
挺 4 简陋 2 
30 包装 结实 很 2 
不 错 有 上 好 3 2 
很 9 特别 2 
非常 2 不 错 三 
正常 过 2 
- 2 - 8 
清 断 | 很 1 好 ”| 很 5 
完美 = 客服 非常 1 
合适 三 热情 很 2 
便宜 一 4 耐心 一 1 


图 2 实验 数据 
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经 过 对 HNC 知识 库 的 检索 ,对 于 知识 库 中 已 有 
的 词语 使 用 既定 的 规律 进行 赋值 。 对 于 知识 库 中 空 
的 词语 , 用 上 面 提 到 的 方法 人 工 生成 符号 并 根据 相同 
的 规律 赋值 。 得 到 的 基础 情感 值 如 表 2 所 示 。 
表 2 基础 情感 值 


情感 词 “oe 。 情感 词 人 政信 。 情感 词 。 启 训 人 
薄 0 精细 1 热情 1 
宜 1 厉害 1 神速 1 
不 错 1 流畅 1 完美 1 
大 0 慢 -1 迅速 1 
方便 1 耐心 1 正常 1 
好 1 时 用 1 及 时 1 
合适 1 清晰 1 简陋 -1 
划算 1 结实 1 


在 表 2 基础 上 ,再 对 程度 副词 进行 处 理 。 使 用 同 
样 的 方法 ,， 先 在 已 有 的 知识 库 中 进行 筛选 ， 然 后 对 不 
存在 的 词 进 行人 工 生成 符号 并 确定 程度 副词 带 来 的 偏 
差 , 得 到 的 结果 如 表 3 所 示 。 
表 3 程度 副词 带 来 的 变动 
程度 副词 有 些 相当 挺 特别 太 很 还 非常 比较 
变动 权 值 1.1 13 13 13 15 13 1 13 1 


对 数据 进行 上 述 预 处 理 之 后 , 该 评论 涉及 的 不 同 
主题 情感 值 计算 如 下 : 
SC 商品 ”=x > M(w)=1.083 
116 ,a 
使 用 本 文 方法 进行 实际 操作 所 得 的 消费 者 对 主 
题 “商品 ”的 情感 值 为 1.083, 略 高 于 1， 所 以 消费 者 对 
商品 本 身 的 评价 还 是 趋 于 积极 的 。 消 费 者 在 其 他 方面 
的 情感 值 通过 相同 方法 计算 得 出 , 结果 如 下 : 
S(“ 物 流 ”)= x > M(w)=1.123 


weW 


SC 包装 ”)=x 2, M(w)=0.575 


weW 


1 
8 
SC 客服 ) = 上 x > MOw)=1.141 
17 weW 
同 理 , 计算 对 商品 其 他 方面 评论 的 情感 值 。 综 上 ， 
从 “商品 ” “物流”“ 包 装 ”“ 客 服 ” 这 4 个 方面 来 说 , 通 
过 得 到 的 数据 可 知 , 消费 者 对 商品 本 身 满意 度 还 可 以 ， 
而 物流 、 客 服 的 情感 值 则 表明 这 两 方面 能 带 给 消费 者 
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较 好 的 体验 , 包装 的 情感 值 为 0.575, 可 知 在 包装 上 带 
给 消费 者 的 满意 度 不 高 。 人 情感 值 计算 的 实用 意义 也 就 
凸显 出 来 , 它 可 以 指导 该 商品 的 销售 方面 应 该 加 强 包 
装 的 质量 ， 从 而 提升 客户 的 满意 度 。 


4 结 语 


在 电子 商务 快速 发 展 、 人 们 网 购 热 情 高 涨 的 大 环 
境 下 ,以 网 购 评论 为 数据 基础 , 应 用 HNC 理论 的 相关 
概念 , 对 获取 的 真实 评论 文本 进行 计算 分 析 , 提出 基 
于 HNC 理论 的 文本 情感 倾向 性 分 析 方 法 。 在 计算 情 
感 值 时 充分 利用 HNC 中 对 偶 性 概念 、 概 念 节点 的 理 
论 , 以 及 概念 层次 树 挂 靠 节 点 所 体现 出 来 的 新 词 处 理 
优势 ,识别 用 户 商 品评 论 中 表达 出 来 的 情感 倾向 。 

在 实验 中 , 首先 利用 HNC 中 的 概念 类 别 对 文本 
中 的 情感 词 进 行 第 选 和 提取 , 通过 该 情感 词 的 关联 概 
念 节点 找到 其 父 节 点 , 利用 对 偶 性 概念 赋予 基础 情感 
值 , 然后 计算 程度 副词 带 来 的 权 值 修正 ,最 终 对 整 条 
评论 进行 统一 计算 , 得 到 该 商品 评论 的 最 终 情感 值 。 
除 此 之 外 , 还 根据 HNC 概念 层次 树 挂靠 节点 的 理论 
提出 网 络 新 词 HNC 符号 生成 的 规则 , 对 以 后 基于 
HNC 的 研究 有 借鉴 意义 。 

本 文 主要 有 以 下 创新 : 利用 HNC 概念 层次 树 理论 
提出 通过 挂靠 节点 为 网 络 新 词 生成 HNC 符号 的 方法 ， 
克服 了 其 他 知识 库 所 不 能 解决 的 库 外 词语 赋值 问题 。 
虽然 提出 基于 HNC 的 情感 倾向 性 计算 方法 , 实 
现 网 购 评论 量化 分 析 , 但 是 还 有 很 多 工作 需要 进一步 
的 研究 : 分 析 的 评论 和 商品 较 少 ,下 一 步 将 结合 更 多 
平台 不 同类 型 商品 的 网 购 评 论 进行 实验 ; 提出 的 新 
词 收 录 的 挂靠 节点 的 方法 需要 人 工 标 注 ， 前 期 工作 
量 较 大 ,尝试 通过 机 絮 学 习 的 方法 进行 改进 。 

从 结果 上 讲 , 本 实验 只 是 初步 验证 了 方法 的 可 行 
性 。 由 于 情感 极 性 分 析 本 身 的 高 度 主观 性 ,实验 尚未 
验证 方法 的 精确 性 ,只 能 大 臻 通过 人 工 阅读 评论 的 方 
式 确定 计算 的 结果 与 人 为 理解 的 结果 一 致 。 同 时 由 于 
还 未 实现 对 新 词 的 自动 识别 和 处 理 , 未 进行 批量 的 计 
算 , 这 也 是 今后 重点 要 解决 的 问题 。 


[1] 莅 丽 敏 ， 李 砍 伟 ， 肖 斌 .中文 文 本 情感 倾向 性 五 元 模型 研 
究 []]. 通信 技术 ，2011, 44(7): 130-132. (Xue Limin, Li 


Data Analysis and Knowledge Discovery 


201712.01377V1 


chinaXiv: 


ChinaXiv 合 作 期 刊 


_ 人 i# 辑 


[2] 


[3] 


[4] 


[5] 


[6] 


[7] 


[8] 


[9] 


Dianwei, Xiao Bin. Study on Novel Quintuple Model for 
Chinese Text Sentiment Orientation [J]. Communications 
Technology, 2011, 44(7): 130-132.) 

朱 嫣 网 ， 闵 锦 ， 周 雅 倩 ， 等 . 基于 HowNet 的 词汇 语义 倾向 
计算 [可 . 中 文 信息 学 报 ，2006，20(1): 14-20. (Zhu Yanlan, 


Min Jin, Zhou Yaqian, et al. Semantic Orientation Computing 


Based on HowNet [J]. Journal of Chinese Information 
Processing, 2006, 20(1): 14-20.) 

聂 开 , 容 哲 . 面向 评论 效用 评估 的 文本 情感 特征 提取 [中 . 
现代 图 书 情报 技术 ，2015(7-8): 113-121. (Nie Hui，Rong 


Zhe. Review Helpfulness Prediction Research Based on 


Review Sentiment Feature Sets [J]. New Technology of 
Library and Information Service, 2015(7-8): 113-121.) 

兰 秋 军 , 刘 文 星 , 李 卫 康 ， 等 . 融合 句法 信息 的 金融 论坛 
文本 情感 计算 研究 [J]. 现代 图 书 情报 技术 , 2016(4): 64-71. 


(Lan Qiujun, Liu Wenxing, Li Weikang, et al. Sentiment 


Analysis of Financial Forum Textual Message [J]. New 
Technology of Library and Information Service, 2016(4): 
64-71.) 

何 跃 , 肖 敏 ， 张 月 . 结合 话题 相关 性 的 热点 话题 情感 倾向 
研究 [J]. 数据 分 析 与 知识 发 现 , 2017, 1(3): 46-53. (He Yue, 
Xiao Min, Zhang Yue. Sentiment Analysis of Trending Topics 


Based on Relevance[J]. Data Analysis and Knowledge 
Discovery, 2017, 1(3): 46-53.) 
钟 义 信 . 自然 语言 理解 的 全 信息 方法 论 [J]. 北京 邮电 大 学 


学 报 ，2004，27(4): 1-12. (Zhong Yixin. Comprehensive 


Information Based Methodology for Natural Language 
Understanding[J]. Journal of Beijing University of Posts and 
Telecommunications, 2004, 27(4): 1-12.) 

攀 康 新 . 基于 多 种 情感 特征 的 网 络 文本 倾向 性 判别 方法 人 研 
究 [J]. 电脑 知识 与 技术 , 2015, 11(22): 18-21. (Fan Kangxin. 
Research on the Method of Network Text Orientation 


Discrimination Based on Multiple Sentiment Features[J]. 
Computer Knowledge and Technology, 2015, 11(22): 18-21.) 

刘 玮 楠 . 基于 HNC 理论 的 网 购 评论 情感 倾向 性 分 析 研 究 
[D]. 大 连 : 大 连理 工大 学 , 2013. (Liu Weinan. Research on 


Sentiment Orientation Analysis of Online-shopping Review 


Base-on HNC Theory [D]. Dalian: Dalian University of 
Technology, 2013.) 

黄 曾 阳 . HNC 理论 概要 [J]. 中 文 信息 学 报 ，1997，11(4): 
12-21. (Huang Zengyang. The Profile of HNC Theory[J]. 


葬 浊 数据 分 析 与 知识 发 现 


[13] 


Journal of Chinese Information Processing, 1997, 11(4): 
12-21.) 

唐 兴 全 . HNC 理论 的 五 元 组 与 词性 [C]/ 自 然 语 言 理解 与 机 
器 翻译 一 一 全 国 第 六 届 计 算 语言 学 联合 学 术 会 议论 文集 . 
2001. (Tang Xingquan. The Quintuple of HNC Theory and 
Part of Speech[C]// Proceedings of the 6th Academic 


Conference on Computational Linguistics in China. 2001.) 
李 颖 ， 池 航 焕 对偶 性 概念 的 HNC 阐释 [中 . 中 文 信 息 学 报 ， 
2004, 18(3): 39-46. (Li Ying, Chi Yuhuan. Re-Categorization 
of Antithesis Based on HNC Theory[J]. Journal of Chinese 
Information Processing, 2004, 18(3): 39-46.) 

HNC( 概 念 层次 网 络 ) 理 论 [Cj// 中 国 中 文 信息 学 会 第 六 次 全 
国会 员 代 表 大 会 既成 立 二 十 五 周年 学 术 会 议 中 文 信息 处 理 
大 成 果 汇 报 展 资料 汇编 . 中 国 中 文 信息 学 会 ，2006. 
(HNC (Hierarchical Network of Concepts) Theory[C]/ 


UU 


回 


[ml 
Wh 


Proceedings of the 25th Anniversary Academic Conference of 
Chinese Information Society. 2006.) 

王 昌 厚 , 王菲 . 使 用 基于 模式 的 Bootstrapping 方法 抽取 情 
感 词 [ 吕 .计算 机 工程 与 应 用 ，2014，50(1): 127-129. (Wang 
Changhou, Wang Fei. Extracting Sentiment Words Using 


Pattern 


Engineering and Applications, 2014, 50(1): 127-129.) 


Based Bootstrapping Method [J]. Computer 


高 歌 : 提出 研究 思路 , 设计 人 研究 方案 ; 

罗 瑞 玫 : 采集 、 分 析 数 据 ; 

高 歌 , 罗 珊 玫 : 进行 实验 , 起 草 、 修 订 论 文 ; 
王 宇 : 提出 研究 问题 , 论文 最 终 版 本 修订 。 


所 有 作者 声明 不 存在 利益 冲突 关系 。 


支撑 数据 由 作者 自 存储 , E-mail: 17615002656@163.com。 


[1] 高 歌 , 罗 班 玫 . 京东 评论 .xlsx. 情感 值 计算 所 | 


评论 ， 


收 稿 日 期 : 2017-05-27 
收 修改 稿 日 期 : 2017-07-03 


总 第 8 期 2017 年 第 8 期 


Analyzing Textual Sentiment Based on HNC Theory 


GaoGe LuoJunmei Wang Yu 
(Faculty of Management and Economics, Dalian University of Technology, Dalian 116024, China) 


Abstract: [Objective] This sutdy proposes a new method to conduct sentiment analysis with comment texts, aiming to 
deal with the issues facing new online terms. [Methods] Based on the Hierarchical Network of Concepts (HNC) theory, 
we defined symbols for the new words, which could be processed more efficiently. [Results] The proposed method 
analyzed the sentiment of the textual message effectively. [Limitations] Our method could only process short texts, 
while we still need to manually create Symbols for the new words. [Conclusions] We proposed an effective way to 
conduct sentiment analysis. 


Keywords: Comment Text Sentiment Analysis Hierarchical Network of Concepts (HNC) 


学 术 研 究 : 领域 专家 各 有 所 长 , 但 计算 机 程序 能 从 中 做 出 最 优选 择 


将 人 类 的 直觉 与 计算 机 的 公正 性 相 结 合 可 以 改善 组 织 决策 ,实现 降低 成 本 和 提高 利润 。 

最 近 一 项 研究 表明 , 经 过 计算 机 程序 的 分 析 , 帮助 Dow AgroSciences 公司 的 业务 部 门 提高 了 预测 的 准确 性 , 使 其 利润 增 
长 了 2% 至 3%, 成 本 下 降 了 6% 至 7%。 美 国宾 州 州立 大 学 Smeal 商学 院 供应 链 管理 专业 助理 教授 Saurabh Bansal 表示 。 

该 团队 与 Dow AgroSciences 管理 部 门 的 生产 专家 合作 , 改进 了 公司 玉米 种 子 部 门 的 预测 工作 。 研究 人 员 指 出 , 受 需 求 变 
化 和 天 气 变 化 等 因素 的 影响 ,生产 玉米 种 子 可 能 是 一 项 琼 手 的 工作 。“ 每 年 , 公司 都 需要 和 弄 清楚 农民 们 预计 会 种 植 玉 米 的 面 
职 ,”Bansal 说 :“ 但 是 ,在 这 个 竞争 激烈 的 行业 ,经 常 出现 新 品种 的 玉米 种 子 , 而 且 公司 在 种 植 新 产品 方面 也 缺乏 经 验 ， 从 而 
无 法 预知 产量 。 为 了 优化 种 植 种 子 的 资源 配置 , 就 需要 对 产量 进行 估算 。” 

公司 经 常 依靠 经 理 作为 专家 来 对 未 来 事件 和 活动 进行 预计 ， 因 为 这 比 研究 人 员 实 地 收集 信息 更 加 经 济 有 效 。 然 而 , 这些 
根据 多 年 经 验 所 提供 的 心理 模型 做 出 预测 的 专家 往往 会 引入 个 人 偏见 ， 从 而 与 真实 的 预测 产生 偏差 。 

研究 人 员 开 发 了 计算 机 模型 来 估计 产量 。 首 先 ， 收集 领域 专家 对 产量 的 判断 ,然后 使 用 数学 模型 将 分 位 数 估计 值 转化 为 
产量 的 平均 值 和 标准 偏差 。“ 这 个 平均 值 提供 了 企业 平均 预期 产量 的 估算 值 ， 而 标准 偏差 可 以 预测 增长 过 程 中 的 预期 变化 。” 

Bansal 表示 , 将 来 可 以 在 其 他 行业 实施 该 模式 , 包括 生物 燃料 工业 和 半导体 行业 , 这些 行业 通常 存在 严重 的 供应 不 确定 性 。 

(编译 自 : https://www.sciencedaily.comyreleases/2017/08/170824110603.htmy) 
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